FILTER MODE ACTIVE

#Direct Preference Optimization

Records found: 2

#Direct Preference Optimization06/07/2025

Meta and NYU's Semi-Online Reinforcement Learning Enhances LLM Alignment Efficiency

Meta and NYU developed a semi-online reinforcement learning method that balances offline and online training to enhance large language model alignment, boosting performance in both instruction-based and mathematical tasks.

READ →

#Direct Preference Optimization19/05/2025

Ant Group's SEM Empowers LLMs to Master When to Search and When to Rely on Memory

Ant Group introduces SEM, a reinforcement learning method that teaches large language models to decide when to use external search tools, enhancing reasoning accuracy and reducing unnecessary searches.

READ →